NLP | Nope...

Wed 4 Mar 2026

Catégories:
Blog

Quand spaCy ne voit pas l'infrastructure : le problème NLP des logs de sécurité

Quand spaCy ne voit pas l’infrastructure : le problème NLP des logs de sécurité Avant d’envoyer des logs à un éditeur de logiciels pour investigation, à un LLM externe pour analyse, ou simplement de les archiver conformément au RGPD, une question s’impose : ces logs contiennent-ils des informations qui exposent mon infrastructure ? La réponse est presque toujours oui. Et les outils NLP standards — aussi performants soient-ils sur le langage courant — sont largement aveugles aux entités spécifiques au domaine de la sécurité. Read More...

Tagged NLP, NER, Anonymisation, Logs, spaCy, Sécurité, RGPD, MLOps, Cybersécurité, PII

Wed 4 Mar 2026

Catégories:
Blog

Cartographier les logs disponibles : le problème du corpus pour l'anonymisation

Cartographier les logs disponibles : le problème du corpus pour l’anonymisation Entraîner un agent d’anonymisation pose un problème paradoxal : les données les plus utiles à l’entraînement sont précisément celles que personne ne partage. Les logs réels de production contiennent exactement les entités sensibles qu’on cherche à détecter — et c’est pour ça qu’ils restent dans les datacenters. Cette contrainte a des conséquences directes sur la qualité des modèles. Cet article recense les corpus disponibles, leur niveau de sanitisation, leur densité en entités sensibles, et la façon dont on peut les compléter par des données synthétiques. Read More...

Tagged NLP, Dataset, Logs, Anonymisation, LogHub, SDLog, Cybersécurité, Corpus, Windows, Linux, NER

Wed 4 Mar 2026

Catégories:
Blog

Entraîner un NER sécurité : du corpus annoté au modèle en production

Entraîner un NER sécurité : du corpus annoté au modèle en production Les entités de sécurité que spaCy standard ne détecte pas ne sont pas impossibles à apprendre — elles sont simplement absentes de ses données d’entraînement. La solution n’est pas de remplacer spaCy par un LLM lourd, mais d’entraîner le composant NER de spaCy sur des exemples spécifiques au domaine. Ce chemin — annotation LLM-assistée → fine-tuning spaCy → modèle production léger — est à la fois robuste et déployable sans GPU. Read More...

Tagged NLP, NER, spaCy, Fine-tuning, Anonymisation, Logs, Cybersécurité, MLOps, Dataset

Wed 4 Mar 2026

Catégories:
Blog

Recollect & Rank : quand un LLM désanonymise vos logs

Recollect & Rank : quand un LLM désanonymise vos logs Une opération d’anonymisation réussie au sens technique — toutes les IPs masquées, tous les comptes remplacés par des tokens — peut échouer au sens de la confidentialité si le contexte restant permet de reconstruire ce qui a été masqué. Ce n’est pas une hypothèse théorique. Les outils pour y parvenir sont disponibles publiquement. Le problème des quasi-identifiants La définition classique du PII (Personally Identifiable Information) couvre les données directement identifiantes : nom, numéro de sécurité sociale, adresse email. Read More...

Tagged Anonymisation, LLM, Sécurité, Privacy, Ré-identification, k-anonymité, Logs, Attaque, NLP, Cybersécurité

Wed 4 Mar 2026

Catégories:
Blog

La session partagée : garantir la cohérence d'anonymisation sur un batch de logs

La session partagée : garantir la cohérence d’anonymisation sur un batch de logs Anonymiser un fichier de logs est résolu. Anonymiser un batch de fichiers de logs de manière cohérente — même entité, même token, partout — est un problème d’architecture non trivial que les outils standards ne résolvent pas. C’est pourtant la condition minimum pour que les logs anonymisés restent exploitables par leur destinataire. Le cas d’usage qui impose la contrainte L’infrastructure rencontre un problème critique. Read More...

Tagged Anonymisation, Architecture, Logs, NLP, Cohérence, Pipeline, MLOps, anonyfiles, spaCy, Cybersécurité

Articles dans NLP...

Quand spaCy ne voit pas l'infrastructure : le problème NLP des logs de sécurité

Cartographier les logs disponibles : le problème du corpus pour l'anonymisation

Entraîner un NER sécurité : du corpus annoté au modèle en production

Recollect & Rank : quand un LLM désanonymise vos logs

La session partagée : garantir la cohérence d'anonymisation sur un batch de logs